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Procede et svsteme ameriores de conversion d'un signal vocal 

La presents invention concerne un procede de conversion d'un signal 
vocal prononce par un iocuteur source en un signal vocal convert! dont les 
caracteristiques acoustiques ressemblent a celles d'un Iocuteur cible et un 
systems de conversion correspondant. 
5 Dans le cadre d'applications de conversion de voix, telles que les 

services vocaux, les applications de dialogue oral homnne-machine ou encore la 
synthase vocale de textes, le rendu auditif est primordial et, pour obtenir une 
qualite acceptable, 11 convient de bien maTtriser les parametres acoustiques des 
signaux vocaux. 

iO De maniere classique, les principaux param§tres acoustiques ou 

prosodiques modifies lors de precedes de conversion de voix sont les parametres 
relatifs a I'enveloppe spectrale, et pour les sons voises faisant intervenir la 
vibration des cordes vocales, les parametres relatifs a une structure periodique, 
soit la periode fondamentale dont I'inverse est appele frequence fondamentale 

15 ou « pitch ». 

Les precedes de conversion de voix classiques sont essentiellement 
fondes sur des modifications des caracteristiques d'enveloppe spectrale et des 
modifications globales des caracteristiques de frequence fondamentale. 

Une etude plus recente, publiee a Toccasion de la conference 
20 EUROSPEECH 2003 sous le titre « A new method for pitch prediction from 
spectral envelope and Its application In voice conversion » par Taoufik En- 
Najjary, Olivier Rosec and Thierry Chonavel, prevoit la possibilite d'affiner la 
modification des caracteristiques de frequence fondamentale en definissant une 
fonction de prediction de ces caracteristiques, en fonction de caracteristiques 
25 d'enveloppe spectrale. 

Ainsi, ce procede permet de modifier les caracteristiques d'enveloppe 
spectrale, et en fonction de celles-ci, de modifier les caracteristiques de 
frequence fondamentale. 

Ce procede presente toutefois Tinconvenient important de rendre la 
30 modification des caracteristiques de frequence fondamentale dependantes de.la 
modification des caracteristiques d'enveloppe spectrale. Ainsi une erreur de 
transformation de Tenveloppe spectrale se repercute automatiquement sur la 
• prediction de frequence fondamentale. 
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De plus, la mise en ceuvre d'un tel procede requiert deux etapes 
importantes de catcul, soit la modification des caracteristiques d'enveioppe 
spectrale et la prediction de la frequence fondannentale, aboutissant ainsi a 
doubler la complexite du systenne dans son ensennble. 
5 Le but de la presents invention est de resoudre ces problemes en 

definissant-un procede de conversion de voix sinnple et plus efficace. 

A cet effet, la presents invention a pour objet un procede de 
conversion d'un signal vocal prononce par un locuteur source en un signal vocal 
converti dont les caracteristiques acoustiques ressemblent a celles d'un locuteur 
10 cible, conaprenant : 

la determination d*au moins une fonction de transformation de 
caracteristiques acoustiques du locuteur source en caracteristiques acoustiques 
proches de celles du locuteur cible. a partir d'echantillons vocaux des locuteurs 
source et cible ; et 

15 - la transformation de caracteristiques acoustiques du signal vocal a 

convertir du locuteur source, par I'application de ladite au moins une fonction de 
transformation, 

caracterise en ce que ladite determination comprend la 
determination d'une fonction de transformation conjoints de caracteristiques 
20 relatives a I'enveloppe spectrale et de caracteristiques relatives a la frequence 
fondamentale du locuteur source et en ce que ladite transformation comprend 
Tapplication de ladite fonction de transformation conjointe. 

Ainsi, le procede de I'invention permet la modification simultanee au 
cours d'une seule operation des caracteristiques d'enveioppe spectrale et de 
25 frequence fondamentale sans creer de dependance entre celles-ci. . 
Suivant d'autres caracteristiques de I'invention : 

- ladite determination d'une fonction de transformation conjointe 

comprend : 

- une etape d'analyse des echantillons vocaux des locuteurs 
30 source et cible regroupes en trames pour obtenlr, pour chaque frame 
d^echantillons d'un locuteur. des Informations relatives a I'enveloppe spectrale et 
. a la frequence fondamentale ; 
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- une etape de concatenation des informations relatives a 
i'enveioppe spectrale et a la frequence fondamentale pour chacun des locuteurs 
source et cible ; 

- une etape de determination d*un modeie representant des 
5 caracteristiques acoustiques communes des echantilions vocaux du locuteur 

source et du locuteur cible ; et 

- une etape de determination, a partir de ce modeie et des 
echantilions vocaux, de ladite fonction de transformation conjointe ; 

- lesdites etapes d^analyse des echantilions vocaux des locuteurs 
10 source et cible sont adaptees pour delivrer lesdites informations relatives a 

Tenveloppe spectrale sous la forme de coefficients cepstraux ; 

- lesdites etapes d'analyse comprennerit chacune la modelisation 
des echantilions vocaux selon une somme d*un signal harmonique et d'un signal 
de bruit qui comprend : 

-15 . une sous-etape d'estimation de la frequence fondamentale des 

echantilions vocaux ; 

. - une sous-etape d'analyse synchronisee de chaque trame 
d'echantillons sur sa frequence fondamentale ; et 

- une sous-etape d'estimation de parametres d*enveloppe 
20 spectrale de chaque trame d'echantillons. 

- ladite etape de determination d'un modeie correspond a la 
determination d'un modeie de melange de densites de probabilites gaussiennes; 

- ladite etape de determination d'un modeie comprend : 

- une sous-etape de determination d'un modeie correspondant a 
25 un melange de densite de probabilites gaussiennes, et 

- une sous-etape d'estimation des parametres du melange de 
densites de probabilites gaussiennes a partir de Testimation du maximum de 
vraisemblance entre les caracteristiques acoustiques des echantilions des 
locuteurs source et cible et le modeie ; 

30 - ladite determination d'au moins une fonction de transformation, 

comporte en outre une etape de normalisation de la frequence fondamentale des 
trames d'echantillons des locuteurs source et cible respectivement par rapport 
aux moyennes des frequences fondamentales des echantilions analyses des 
locuteurs source et cible ; 
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- le procede comporte une etape d'alignement tempore! des 
caracteristiques acoustiques du locuteur source avec les caracteristiques 
acoustiques du locuteur cible, cette etape etant realisee avant ladite etape de 
determination d'un modele ; 

5 - le procede comporte une etape de separation dans les 

echantillons vocaux du locuteur source et du locuteur cible, des trames a 
caractere voise et des trames a caractere non voise, ladite determination d'une 
fonction de transformation conjointe des caracteristiques relatives a Tenveloppe 
spectrale et a la frequence fondamentale etant realisee uniquement a partir 
10 desdites trames voisees et le procede comportant une determination d'une 
fonction de transformation des seules caracteristiques d'enveloppe spectrale 
uniquement a partir desdites trames non voisees ; 

- ladite determination d'au moins une fonction de transformation 
comprend uniquement ladite etape de determination d'une fonction de 

15 transformation conjointe ; 

- ladite determination d*une fonction de transformation conjointe est 
realisee a partir d'un estimateur de la realisation des caracteristiques acoustiques 
du locuteur cibie sachant les caracteristiques acoustiques du locuteur source ; 

- ledit estimateur est forme de I'esperance conditionnelle de la 
20 realisation des caracteristiques acoustiques du locuteur cible sachant la 

realisation des caracteristiques acoustiques du locuteur source ; 

- ladite transformation de caracteristiques acoustiques du signal 
vocal a convertir, comporte : 

- une etape d'analyse de ce signal vocal, regroupe en trames 
25 pour obtenir. pour chaque trame d*echantillons, des informations relatives a 

Tenveloppe spectrale et a la frequence fondamentale ; 

- une etape de formatage des informations acoustiques relatives 
a Tenveloppe spectrale et ^ la frequence fondamentale du signal vocal a 
convertir ; et 

30 . - une §tape de transformation des informations acoustiques 

formatees du signal vocal a convertir a Taide de ladite fonction de 
transformation conjointe ; 



wo 2005/106852 PCT/FR2005/000564 

5 

- le procede comporte une etape de separation, dans ledit signal 
vocal a convertir, des trames voisees et des trames non voisees, ladite etape de 
transformation connprenant : 

- une sous-etape d*application de ladite fonction de 
5 transformation conjointe aux seules trames voisees dudit signal a convertir ; et 

- une sous-etape d'application de ladite fonction de 
transformation des seules caracteristiques d'enveloppe spectrale auxdites trames 
non voisees dudit signal a convertir ; 

- ladite etape de transformation comprend ('application de ladite 
10 fonction de transformation conjointe aux caracteristiques acoustiques de toutes 

les trames dudit signal vocal a convertir ; 

- le procede comporte en outre une etape de synthese permettant 
de former un signal vocal converti a partir des dites informations acoustiques 
transformees, 

15 L'invention a egalement pour objet un systeme de conversion d'un 

signal vocal prononce par un locuteur source en un signal vocal converti dont les 
caracteristiques acoustiques ressemblent a celles d'un locuteur cible, 
comprenant : 

- des moyens de determination d'au moins une fonction de 
20 transformation des caracteristiques acoustiques du locuteur source en 

caracteristiques acoustiques prociies du locuteur cible, a partir d'echantilions 
vocaux prononces par les locuteurs source et cible : et 

- des moyens de transformation des caracteristiques acoustiques 
du signal vocal a convertir du locuteur source par Tapplication de ladite au moins 

25 une fonction de transformation, 

caracterise en ce que lesdits moyens de determination d'au moins 
une fonction de transformation, comprennent une unite de determination d'une 
fonction de transformation conjointe de caracteristiques relatives a I'enveloppe 
spectrale et de caracteristiques relatives a la frequence fondamentale du locuteur 
30 source et en ce que lesdits moyens de transformation comportent des moyens 
d'application de ladite fonction de transformation conjointe. 

Selon d'autres caracteristiques de ce systeme : 

- il comporte en outre : 
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- des moyens d'analyse du signal vocal a convertir, adaptes pour 
d§livrer en sortie des informations relatives a I'envetoppe spectrale et a la 
frequence fondamentale du signal vocal a convertir ; et 

- des moyens de synthese permettant de former un signal vocal 
5 convert! ^ partir au moins desdites informations d'enveloppe spectrale et de 

frequence fondamentale transformees simultanement ; 

- lesdits moyens de determination d'au moins une fonction de 
transformation de caracteristiques acoustiques comportent en outre une unite de 
determination d'une fonction de transformation de I'enveloppe spectrale des 

10 frames non voisees, ladite unite de determination de la fonction de transforination 
conjointe etant adaptee pour la determination de la fonction de transformation 
conjointe uniquement pour les trames voisees. 

Uinvention sera mieux comprise a la lecture de la description qui va 
suivre, donnee uniquement a titre d'exemple et faite en se referent aux dessins 

15 annexes, sur lesquels : 

- les Figs. 1A et 1B forment un organigramme general d'un premier 
mode de realisation du precede de Finvention ; 

- les Figs. 2A et 2B forment un organigramme general d'un second 
mode de realisation du precede de Tinvention ; 

20 - la Fig. 3 est un graphique repr^sentant un releve experimental des 

performances du procede de I'invention ; et 

- la Fig. 4 est un schema synoptique d'un systeme mettant en oeuvre 
un precede selon Tinvention. 

La conversion de voix consiste a modifier le signal vocal d'un locuteur 
25 de reference appele locuteur source, de telle sorte que le signal prodult semble 
avoir ete prononce par un autre locuteur, nomm6 locuteur cible. 

Un tel procede comporte tout d'abord la determination de fonctions de 
transformation de caracteristiques acoustiques ou prosodiques des signaux 
vocaux du locuteur source en caracteristiques acoustiques proches de celles des 
30 signaux vocaux du locuteur cible, a partir d'echantillons vocaux prononces par le 
locuteur source et le locuteur cible. 

Plus particulierement, la determination 1 de . fonctions de 
transformation est realisee sur des bases de donnees d'echantillons vocaux 
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correspondant a la realisation acoustique de memes sequences phonetiques 
prononcees respectivennent par les locuteurs source et cible. 

Cette determination est designee sur la figure 1A par la reference 
numerique generaie 1 et est egalement couramnnent appelee « apprentissage ». 
5 Le precede comporte ensuite une transformation des caracteristiques 

acoustiques d'un signal vocal a convertir prononce par le- locuteur source a i'aide 
de la ou des fonctions determinees precedemment. Cette transformation est 
designee par la reference numerique generaie 2 sur la figure 1B. 

Le precede debute par des etapes 4X et 4Y d'analyse des echantillons 
10 vocaux prononces respectivement par les locuteurs source et cible. Ces etapes 
permettent de regrouper les echantillons par trames, afin d'obtenir pour chaque 
trame d'echantlllons, des Informations relatives a I'enveloppe spectrale et des 
informations relatives a la frequence fondamentale. 

Dans le mode de realisation decrit, les etapes 4X et 4Y d'analyse sont 
15 fondees sur Tutilisation d'un modele de signal sonore sous la forme d'une somme 
d'un signal harmonique avec un signal de bruit selon un modele communement 
appele "HNM" (en anglais : Harmonic plus Noise Model). 

Le modele HNM comprend la modeiisation de chaque trame de signal 
vocal en une. partie harmonique representant la composante periodique du 
20 signal, constituee d'une somme de L sinusoTdes harmoniques d'amplitude A| et 
de phase et d'une partie bruitee representant le bruit de friction et la variation 
de ['excitation glottale. 

On peut ainsi ecrire : 

s(n)=h(n)+b(n) 

25 avec h(n)= 2^Ai(n)cos(<|).(n)) 

Le terme h(n) represente done ['approximation harmonique du signal 

s(n). 

En outre, le mode de realisation decrit est fonde sur une 
representation de Tenveloppe spectrale par le cepstre discret. 
30 Les etapes 4X et 4Y comportent des sous-etapes 8X et 8Y 

d'estimation pour chaque trame. de la frequence fondamentale, par exemple au 
moyen d'une methode d'autocorrelation. 
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Les sous-etapes 8X et BY sont chacune suivies d'une sous-etape 10X 
et 10Y d'analyse synchronisee de cheque trame sur sa frequence fondamentale, 
qui permet d'estimer les parametres de la partie harmonique ainsi que les 
parametres du bruit du signal et notamment la frequence maximale de 
5 voisement. En variante, cette frequence peut etre fixee arbitrairement ou etre 
estimee par d'autres moyens connus. 

Dans le mode de realisation decrit, cette analyse synchronisee 
correspond a la determination des parametres des liarmoniques par minimisation 
d'un critere de moindres carres ponderes entre le signal complet et sa 
10 decomposition liarmonique correspondant dans le mode de realisation decrit, au 
signal de bruit estime. Le critere note E est egal a : 

E= i;w-(n)(s(nHi(n))^ 

Dans cette equation, w (n) est la fenetre d'analyse et T\ est la periode 
fondamentale de la trame courante. 
15 Ainsi, la fenetre d'analyse est centree autour de la marque de la 

periode fondamentale et a pour duree deux fois cette periode. 

En variante, ces analyses sont faites de maniere asynchrone avec un 
pas fixe d'analyse et une fenetre de taille fixe. 

Les etapes 4X et 4Y d'analyse comportent enfin des sous-etapes 12X 
20 et 12Y d'estimation des parametres de I'enveloppe spectrale des signaux en 
utilisant par exemple une methode de cepstre discret regularise et une 
transformation en echelle de Bark pour reproduire le plus fidelement possible les 
proprietes de I'oreille humaine. 

Ainsi, les etapes 4X et 4Y d'analyse delivrent respectivement pour les 
25 echantillons vocaux prononces par les locuteurs source et cible, pour chaque 
trame de rang n d'echantillons des signaux de parole, un scalaire note Fn 
representant la frequence fondamentale et un vecteur note Cn comprenant des 
Informations d'enveloppe spectrale sous la forme d'une sequence de coefficients 
cepstraux. 

30 Le mode de calcul des coefficients cepstraux correspond a un mode 

operatoire connu de Tetat de la technique et, pour cette raison, ne sera pas decrit 
plus en detail. 
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Avantageusement, les etapes 4X et 4Y d'analyse sont suivies chacune 
par une etape 14 X et 14Y de normalisation de la vaieur de la frequence 
fondamentale de chaque trame par rapport respectivement aux frequences 
fondamentales des locuteurs source et cible afin de remplacer, pour chaque 
) trame d'echantillons vocaux, la vaieur de la frequence fondamentale par une 
vaieur de frequence fondan^entale normaiisee selon la formule suivante : 

^ 



g = Flog = log 



Fo 
pmoy 



Dans cette formule, f^^y correspond aux moyennes des valeurs des 

frequences fondamentales sur chaque base de donnees analysee, soit sur la 
10 base de donnees d'echantillons vocaux du locuteur source et du locuteur cible. 

Cette normalisation permet de modifier, pour chaque locuteur, Techelle 
de variations des scalaires de frequence fondamentale afin de la rendre 
coherente avec Techelle des variations des coefficients cepstraux. Pour chaque 
trame n, on note gx(n) la frequence fondamentale normaiisee pour le locuteur 
15 source et gy(n) celle du locuteur cible. 

Le precede de ['invention comporte ensuite des etapes. 16X et 16Y de 
concatenation pour chaque locuteur source et cible, des informations 
d'enveloppe spectrale et de frequence fondamentale sous la forme d'un unique 
vecteur. 

20 Ainsi, I'etape 16X permet de definir pour chaque trame n un vecteur 

note Xn regroupant les coefficients cepstraux Cx(n) et la frequence fondamentale 
normaiisee gx(n) selon Tequation suivante : 



= [cl(n),gx(n)] 



Xn 

Dans cette equation, T designe I'operateur de transposition. 
25 De maniere similaire, i'etape 16Y permet de former pour chaque trame 

n, un vecteur yn reprenant les coefficients cepstraux Cy(n) et la frequence 
fondamentale normaiisee gy(n) selon {'equation suivante : 



yn= cy(n),gy( 



4 
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Les etapes 16 X et 16Y sont suivies d'une etape 18 d'alignement entre 
le vecteur source Xn et le vecteur cible yn, de maniere a former un appariement 
entre ces vecteurs obtenu par un algorithme classique d'alignement tempore! 
dynamique dit « DTW » (en anglais : Dynamic Time Warping). 
5 En variante, Tetape 18 d'alignement est mise en oeuvre uniquement a 

partir des coefficients cepstraux sans utiliser les informations de frequence 
fondamentale. 

L'etape 18 d'alignement delivre done un vecteur couple forme de 
couples de coefficients cepstraux et d'informations de frequence fondamentale 

10 des locuteurs source et cible. alignes temporellement. 

L'etape 18 d'alignement est suivie d'une etape 20 de determination 
d'un modele representant les caracteristiques acoustiques communes du 
locuteur source et du locuteur cible a partir des informations d'enveloppe 
spectrale et de frequence fondamentale de tous les echantillons analyses. 

15 Dans le mode de realisation decrit, il s'agit d'un modele probabiliste 

des caracteristiques acoustiques du locuteur cible et du locuteur source, selon un 
modele de melange de densites de probabilites gaussiennes, couramment note 
"GMM", dont les parametres sont estimes a partir des vecteurs source et cible 
contenant, pour chaque locuteur, la frequence fondamentale normaiisee et le 

20 cepstre discret. 

De maniere classique, la densite de probabilite d'une variable aleatoire 
notee de maniere generate p(z), suivant un modele de melange de densites 
gaussiennes GMM s'ecrit matiiematiquement de la maniere suivante : 

Q 

Q 

25 avec Yj^t"^^' o<ai^1 

Dans cette formule, Q designe le nombre de composantes du modele, 
N(z ; Pi, Zj) est la densite de probabilite de la loi normale de moyenne \x\ et de 
matrice de covariance 2| et les coefficients (x\ sont les coefficients du melange. 

Ainsi, le coefficient ai correspond a la probabilite a priori que la 
30 variable al6atoire z soit generee par la i®"^® composante gaussienne du melange. 
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De maniere plus particuliere, I'etape 20 de determination du modele 
comporte une sous-etape 22 de modeiisation de la densite jointe p(z) des 
vecteurs source note x et cible note y. de sorte que : 



parametres GMM (a, p, S) de la densite p(z). Cette estimation peut etre reallsee, 
par exemple, a I'aide d'un aigoritlime classique de type dit "EM" (Expectation - 
Maximisation), correspondant a une methode iterative conduisant a l*obtention 
d*un estimateur de maximum de vraisemblance entre les donnees des 

10 echantillons de parole et le modele de melange de gaussiennes. 

La determination des parametres initiaux du modele GMM est obtenue 
a Taide d'une technique classique de quantification vectorielle. 

L'etape 20 de determination de modele delivre ainsi les parametres 
d'un melange de densites gaussiennes, representatif des caracteristiques 

15 acoustiques communes et en particulier d'enveloppe spectrale et de frequence 
fondamentale, des echantillons vocaux du locuteur source et du locuteur cible. 

Le precede comporte ensuite une etape 30 de determination," a partir 
du modele et des echantillons vocaux, d'une fonction conjointe de transformation 
de la frequence fondamentale et de I'enveloppe spectrale fournie par le cepstre, 

20 du signal du locuteur source vers le locuteur cible. 

Cette fonction de transformation est determinee a partir d'un 
estimateur de la realisation des caracteristiques acoustiques du locuteur cible 
etant donne les caracteristiques acoustiques du locuteur source, forme dans le 
mode de realisation decrit, par Tesperance conditionnelle. 

25 Pour cela, i'etape 30 comporte une sous-etape 32 de determination de 

I'esperance conditionnelle des caracteristiques acoustiques du locuteur cible 
sachant les informations caracteristiques acoustiques du locuteur source. 
Uesperance conditionnelle est notee F(x) et est determinee a partir des formules 
suivantes : 




5 



L'etape 20 comporte ensuite une. sous-etape 24 



d'estimation de 



30 
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avec 



XX xy 
i i 

i i 



et fn= 



y 



Dans ces equations, hi(x) correspond a la probabilite a posteriori que 
le vecteur source x soit genere par la 'f^^ composante du modele de melange de 
5 densites gaussiennes du modele. 

La determination de Tesperance conditionnelle permet ainsi d'obtenir 
la fonction de transformation conjointe des caracteristiques d'enveloppe spectraie 
et de frequence fondamentale entre le locuteur source et le locuteur cibte. 

II apparaTt done que le precede d'analyse de I'invention permet, a partir 
10 du modele et des echantillons vocaux, d'obtenir une fonction de transformation 
conjointe des caracteristiques acoustiques de frequence fondamentale et 
d'enveloppe spectraie. 

En reference a la figure 1B, le precede de conversion comporte 
ensuite la transformation 2 d'un signal vocal a convertir prononce par le locuteur 
15 source, lequel signal a convertir peut etre different des signaux vocaux utilises 
precedemment. 

Cette transformation 2 debute par une etape d'analyse 36 realisee. 
dans le mode de realisation decrit, a Taide d'une decomposition selon le modele 
HNM similaire a celles realisees dans les etapes 4X et 4Y decrites 
20 precedemment. Cette etape 36 permet de delivrer des informations d'enveloppe 
spectraie sous ia forme de coefficients cepstraux, des informations de frequence 
fondamentale ainsi que des informations de phase et de frequence maximale de 
voisement. 

L'etape 36 est suivie d'une etape 38 de formatage des caracteristiques 
25 acoustiques du signal a convertir par normalisation de la frequence fondamentale 
et concatenation avec les coefficients cepstraux afin de former un unique vecteur. 

Get unique vecteur est utilise lors d'une etape 40 de transformation 
des caracteristiques acoustiques du signal vocal a convertir par I'application de la 
fonction de transformation determinee a Tetape 30, aux coefficients cepstraux du 
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signal a convertir definis lors de I'etape 36, ainsi qu'aux informations de 
frequence fondamentale. 

A Tissue de Tetape 40, chaque tranne d'echantillons du signal a 
convertir du locuteur source est ainsi associee a des informations d'enveloppe 
5 spectrale et de frequence fondannentale transfornnees simuitanement, dont les 
caracteristiques sont similaires a celles des echantillons du locuteur cible. 

Le procede comporte ensuite une etape 42 de denormallsation des 
informations de frequence fondamentale transformees. 

Cette etape 42 permet de ramener les informations de frequence 
10 fondamentale transformees sur une echelle propre au locuteur cible seion 
Tequation suivante : 

o 

Dans cette equation Fo[F(x)] correspond a la frequence fondamentale 
transformee denormalisee, Fo™^(y) a la moyenne des vaieurs des frequences 
15 fondamentales du locuteur cible et F[gx(n)] S la transformee de la frequence 
fondamentale normalisee du locuteur source. 

De maniere classique, le procede de conversion comporte ensuite une 
etape 44 de synthese du signal de sortie realisee, dans I'exempie decrit, par une 
synthese de type HNM qui delivre directement le signal vocal convert! a partir des 
20 informations d'enveloppe spectrale et de frequence fondamentale transformees 
delivrees par I'etape 40 et des informations de phase et de frequence maximale 
de voisement delivrees par I'etape 36. 

Le procede de conversion mettant en oeuvre le procede d'analyse de 
Tinvention permet ainsi d'obtenir une conversion de voix realisant conjointement 
25 des modifications d'enveloppe spectrales et de frequence fondamentale, de 
maniere a obtenir un rendu auditif de bonne qualite. 

En reference a la figure 2A, on va maintenant decrire Torganigramme 
general d'un second mode de realisation du procede de Tinvention. 

De meme que precedemment, ce proced§ comporte la determination 1 
■30 de fonctions de transformation de caracteristiques acoustiques du locuteur 
source en caracteristiques acoustiques proclies de celles du locuteur cible. 
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Cette determination 1 debute par la mise en oeuvre des etapes 4X et 
4Y d'analyse des echantillons vocaux prononces respectivement par le locuteur 
source et le locuteur cible. 

Ces etapes 4X et 4Y sont fondees sur ['utilisation du modele HNM 
5 ainsi que cela a ete decrit precedemment et delivrent chacune un scalaire note 
F(n) representant la frequence fondamentale et un vecteur note c(n) comprenant 
des informations d'enveloppe spectrale sous la forme d*une sequence de 
coefficients cepstraux. 

Dans ce mode de realisation, ces etapes 4X et 4Y d'analyse sont 
10 suivies d'une etape 50 d'alignement des vecteurs de coefficients cepstraux issus 
de Tanalyse des trames du locuteur source et des trames du locuteur cible. 

Cette etape 50 est mise en oeuvre par un algorithme tel que 
Talgorithme DTW, de maniere similaire a I'etape 18 du premier mode de 
- realisation. 

15 A Tissue de Tetape 50 d'alignement, le proced6 dispose d'un vecteur 

couple forme de couples de coefficients cepstraux du locuteur source et du 
locuteur cible, alignes temporellement. Ce vecteur couple est egalement associe 
aux informations de frequence fondamentale. 

L'etape 50 d'alignement est suivie d'une etape 54 de separation, dans 

20 le vecteur couple, des trames voisees et des trames non voisees. 

En effet, seules les trames voisees presentent une frequence 
fondamentale et un tri peut etre effectue en considerant si oui ou non des 
informations de frequence fondamentale existent pour chaque couple du vecteur 
couple. 

25 Cette etape de separation 54 permet ensuite de realiser la 

determination 56 d'une fonction de transformation conjointe des caracteristiques 
d'enveloppe spectrale et de frequence fondamentale des trames voisees et la 
determination 58 d'une fondtion de transformation des seules caracteristiques 
d'enveloppe spectrale des trames non voisees. 

30 La determination 56 d'une fonction de transformation des trames 

voisees debute par des etapes 60X et 60Y de normalisation des informations de 
frequence fondamentale respectivement pour les locuteurs. source et cible. 

Ces etapes 60X et 60Y sont realisees de maniere similaire aux etapes 
• 14X et 14Y du premier mode de realisation et aboutissent a I'obtention, pour 
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chaque trame voisee, de la frequence normalises pour le locuteur source notee 
gx(n) et de celle du locuteur cible notee gy(n). 

Ces etapes 60X et 60Y de normalisation sont suivies chacune d'une 
etape 62X et 62Y de concatenation des coefficients cepstraux Cx et Cy du locuteur 
5 source et du locuteur cible respectivement avec les frequences normalisees gx et 

gy. ' . 

Ces etapes 62X et 62Y de concatenation sont realisees de manlere 

similaire aux etapes 16X et 16Y et permettent de delivrer un vecteur Xn contenant 

des informations d'enveloppe spectrale et de frequence fondamentale pour les 
10 frames voisees du locuteur source et un vecteur yn contenant des informations 

d'enveloppe spectrale et de frequence fondamentale normalisees pour les frames 

voisees du locuteur cible, 

De plus, I'alignement entre ces deux vecteurs est conserve tel 

qu*obtenu a Tissue de Tetape 50, les modifications survenues lors des etapes 
15 60X et 60Y de normalisation et 62X et 62Y de concatenation etant realisees 

directement a Tinterieur du vecteur delivre par Tetape 50 d'alignement. 

Le precede comports ensuite une etape 70 de determination d'un 

modele representant les caracteristiques communes du locuteur source et du 

locuteur cible. 

20 A la difference de Tetape 20 decrite en reference a la figure 1A,'cette 

etape 70 est mise en oeuvre a partir des informations de frequence fondamentale 
et d'enveloppe spectrale des seuls echantlllons voises analyses. 

Dans ce mode de realisation, cette etape 70 est fondee sur un modele 
probabiliste selon un melange de densite gaussienne dit GMM. 

25 L'etape 70 comporte ainsi une sous-etape 72 de modelisation de la 

densite jointe entre les vecteurs X et Y realises de maniere similaire a la sous- 
etape 22 decrite precedemment. 

Cette sous-etape 72 est suivie d*une sous-etape 74 d'estimation des 
parametres GMM (a, et S) de la densite p(z). 

30 De meme que dans le mode de realisation decrit precedemment, cette 

estimation est realisee a I'aide d'un algorithme de type « EM » permettant 
Tobtention d'un estimateur de maximum de vraisemblance entre les donnees des 
echantlllons de paroles et le modele de melange de gaussienne. 
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L'etape 70 delivre done les parametres d'un melange de densites 
gaussiennes, representatif des caracteristiques acoustiques communes 
d'enveloppe spectrale et de frequence fondamentale des echantillons vocaux 
voises du locuteur source et du locuteur cible. 
5 Uetape 70 est suivie d'une etape 80 de determination d'une fonction 

conjointe de transformation de la frequence fondamentale et de Tenveloppe 
spectrale des echantillons vocaux voises du locuteur source vers le locuteur 
cible. 

Cette etape 80 est mise en oeuvre de maniere similaire a Tetape 30 du 
10 premier mode de realisation et en particulier comporte egalement une sous-etape 
82 de ^determination de I'esperance conditionnelle des caracteristiques 
acoustiques du locuteur cible sachant les caracteristiques acoustiques du 
locuteur source, cette sous-etape etant mise en oeuvre selon les memes formules 
que precedemment, appliquees aux seuls echantillons voises. 
15 L*etape 80 aboutit ainsi a Tobtention d'une fonction de transformation 

conjointe des caracteristiques d'enveloppe spectrale et de frequence 
fondamentale entre le locuteur source et le locuteur cible, applicable aux trames 
voisees. 

Parallelement a la determination 56 de cette fonction de transformation 
20 des trames voisees, la determination 58 d'une fonction de transformation des 
seules caracteristiques d'enveloppe spectrale des trames non voisees est 
egalement mise en oeuvre. 

Dans le mode de realisation decrit, la determination 58 comporte une 
etape 90 de determination d'une fonction de filtrage definie de maniere globale 
25 sur les parametres d'enveloppe spectrale, a partir des couples de trames non 
voisees. 

Cette etape 90 est realisee de maniere classique par la determination 
d'un modele GMM ou encore de tout autre technique adaptee et connue. 

A Tissue de la determination 58, une fonction de transformation des 
30 caracteristiques d'enveloppe spectrale des trames non voisees est obtenue. 

En reference a la figure 2B, le precede comporte ensuite la 
transformation 2 des caracteristiques acoustiques d'un signal vocal a convertir. 
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De meme que dans le mode de realisation precedent, cette 
transformation 2 debute par une etape d'analyse 36 du signal vocal a convertir 
realisee selon un modele HNM et une etape 38 de formatage. 

Ainsi que cela a ete dit precedemment, ces etapes 36 et 38 permettent 
5 de delivrer, sous la forme d'un unique vecteur, les informations d'enveloppe 
spectrale et de frequence fondamentale normalisee. De plus, Tetape 36 delivre 
des informations de phase et de frequence maximaie de voisement. 

Dans le mode de realisation decrit, Tetape 38 est suivie d'une etape 
100 de separation, dans le signal a convertir analyse, des frames voisees et des 
10 frames non voisees. 

Cette separation est realisee a Taide d*un critere fonde sur la presence 
d*une information de frequence fondamentale non nulla. 

L'etape 100 est suivie d'un.e etape 102 de transformation des 
caracteristiques acoustiques du signal vocal a convertir par Tapplication des 
15 fonctions de transformation determinees lors des etapes 80 et 90. 

Plus partlculierement, cette etape 102 comporte une sous-etape 104 
d'application de la fonction de transformation conjointe des informations 
d'enveloppe spectrale et de frequence fondamentale, determinee a l'etape 80, 
aux seules trames voisees telles que separ§es a Tissue de l'etape 100. 
20 Parallelement, l'etape 102 comporte une sous-etape 106 d'application 

de la fonction de transformation des seules informations d'enveloppe spectrale, 
determinee a l'etape 90, aux seules trames non voisees telles que separees lors 
de l'etape 100. 

La sous-etape 104 delivre ainsi pour chaque trame d'echantilions 
25 voises du signal ^ convertir du locuteur source, des informations d'enveloppe 
spectrale et de frequence fondamentale transformees simultanement et dont les 
caracteristiques sont simllaires a celles des echantillons voises du locuteur cible. 

La sous-etape 106 delivre quant a elle pour cliaque trame 
d'echantilions non voises du signal a convertir du locuteur source, des 
30 informations d'enveloppe spectrale transformees dont les caracteristiques sont 
similaires a celles des §chantillons non voises du locuteur cible. 

Dans le mode de realisation decrit, le precede comprend en outre une 
etape 108 de denormalisation des informations de frequence fondamentale 
transformees, mise en oeuvre sur les informations delivrees par la sous-etape 
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104 de transformation, d'une maniere sinnilaire a Tetape 42 decrite en reference a 
la figure IB. 

Le precede de conversion comporte ensuite une etape 110 de 
synthese du signal de sortie realisee, dans Texemple decrit, par une synthese de 
5 type HNM qui delivre le signal vocal converti 6 partir des informations 
d'enveloppe spectrale et de frequence fondamentale transformees ainsi que des 
informations de phase et de frequence maximale de voisement pour les trames 
voisees et a partir des informations d'enveloppe spectrale transformees pour les 
trames non voisees. 

10 Le precede de Tinvention permet done, dans ce mode de realisation, 

d'effectuer un traitement distinct sur les trames voisees et les trames non 
voisees, les trames voisees subissant une transformation simultanee des 
caracteristiques d'enveloppe spectrale et de frequence fondamentale et les 
trames non voisees subissant une transformation de leurs seules caracteristiques 

15 d'enveloppe spectrale. 

Un tel mode de realisation permet une transformation plus precise que 
le mode de realisation precedent tout en conservant une complexite limitee. 

L'efficacite d'un procede de conversion peut etre evaluee a partir 
d'echantillons vocaux identiques prononces par le iocuteur source et le locuteur 

20 cible. 

Ainsi, le signal vocal prononce par le locuteur source est converti a 
. I'aide du procede de Tinvention et la ressemblance du signal converti avec le 
signal prononce par le locuteur cible est evaluee. 

Par exemple, cette ressemblance est calculee sous la forme d'un 
25 rapport entre la distance acoustique separant le signal converti du signal cible et 
la distance acoustique separant le signal cible du signal source. 

La figure 3 represente un graphique de resultats obtenu dans le cas 
d'une conversion de voix d'homme en une voix de femme, les fonctions de 
transformation etant obtenues a partir de bases d'apprentissage contenant 
30 chacune 5 minutes de parole echantillonnees a 16 kHz, les vecteurs cepstraux 
utilises etant de taille 20 et le modele GMM etant a 64 composantes. 

Ce graphique represente en absclsse les numeros de trames et en 
ordonnee la frequence en hertz du signal. 
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Les resultats representes sont caracteristiques pour les trames 
voisees qui s'etendent approximativement des trames 20 a 85. 

Sur ce graphique, la courbe Cx represente les caracteristiques de 
frequence fondamentale du signal source et la courbe Cy celles du signal cible. 
5 La courbe Ci represente les caracteristiques de frequence 

fondamentale d'un signal obtenu par une conversion lineaire classique. 

II apparait que ce signal presente la meme forme generate que celle 
du signal source representee par la courbe Cx. 

A inverse, la courbe C2 represente les. caracteristiques de frequence 
10 fondamentale d'un signal convert! a Taide du precede de I'invention tel que decrit 
en reference aux figures 2A et 2B. 

II transparaTt de maniere flagrante que la courbe de frequence 
fondamentale du signal converti a I'aide du precede de i'lnvention presente une 
forme generate tres proche de la courbe de frequence fondamentale cible Cy, 
15 Sur la figure 4, on a represente un schema bloc fonctionhel d'un 

systeme de conversion de voix mettant en oeuvre le proc6de decrit en reference 
aux figures 2A et 2B. 

Ce systeme utilise en entree une base de donnees 120 d'6chantlltons 
vocaux prononces par le locuteur source et une base de donnees 122 contenant 
20 au moins les memes echantiltons vocaux prononces par le locuteur cible. 

Ces deux bases de donnees sont utilisees par un module 124 de 
determination de fonctions de transformation de caracteristiques acoustiques du 
locuteur source en caracteristiques acoustiques du locuteur cible. 

Ce module 124 est adapte pour la. mise en oeuvre des etapes 56 et 58 
25 du precede teltes que decrites en reference a la figure 2 .et permet done la 
determination d'une fonction de transformation de I'enveloppe spectrale des 
trames non voisees et d'une fonction de transformation conjointe de Tenveloppe 
spectrale et de la frequence fondamentale des trames voisees. 

De manidre generate, on considere que le module 124 comporte une 
30 unite 126 de determination de la fonction de transformation conjointe de 
I'enveloppe spectrale et de la frequence fondamentale des trames voisees et une 
unite 128 de determination de la fonction de transformation de I'enveloppe 
spectrale des trames non voisees. 
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Le systeme de conversion de voix regoit en entree un signal vocal 130 
correspondant a un signal de parole prononce par le locuteur source et destine a 
etre converti. 

Le signal 130 est introduit dans un module 132 d'analyse du signal, 
5 mettant en oeuvre, par exemple, une decomposition de type HNM permettant de 
dissocier des informations d'enveloppe spectrale du signal 130 sous la forme de 
coefficients cepstraux et des informations de frequence fondamentale. Le module 
132 delivre egalement des informations de phase et de frequence maximale de 
voisement obtenues par Tapplication du modele HNM. 
10 Le module 132 met done en oeuvre Tetape 36 du precede decrit 

precedemment et avantageusement Tetape 38. 

Eventuellement cette analyse peut etre faite au prealable et les 
informations sont stockees pour etre utilisees utterieurement. 

Le systeme comporte ensuite un module 134 de separation des 
15 trames voisees et des trames non volsees dans le signal vocal a convertir 
analyse, 

Les trames voisees, separees par le module 134, sont transmises a un 
module 136 de transformation adapte pour appliquer la fonction de 
transformation conjointe determinee parTunite 126. 
20 Ainsi, le module 136 de transformation met en oeuvre Tetape 104 

decrite en reference a la figure 2B. Avantageusement, le module 136 met 
egalement en oeuvre I'etape 108 de denormalisation! 

Les trames non voisees, separees par le module 134, sont transmises 
a un module 138 de transformation adapte pour appliquer la fonction de 
25 transformation determinee par I'unite 128 de maniere a transformer les 
coefficients cepstraux des trames non voisees. 

Ainsi, le module 138 de transformation des trames non voisees met en 
oeuvre I'etape 106 decrite a la figure 2B. 

Le systeme comporte egalement un module 140 de synthese recevant 
30 en entree, pour les trames voisees les informations d'enveloppe spectrale et de 
frequence fondamentale transformees conjointement et les informations de 
phase et de frequence maximale de voisement dellvrees par le module 136. Le 
module 140 regoit egalement les coefficients cepstraux des trames non voisees 
■ transformes et delivres par le module 138. 
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Le module 140 met ainsi en oeuvre I'etape 110 du precede decrit en 
reference a la figure 2B et delivre un signal 150 correspondant au signal vocal 
130 du locuteur source mais dont les caracteristiques d'enveloppe spectrale et de 
frequence fondamentale ont ete modifiees afin d'etre similaires a ceiles du 
5 locuteur cible. 

Le systeme decrit peut etre mis en oeuvre de diverses manieres et 
notamment a I'aide des programmes informatiques adaptes et relies a des 
moyens materiels d'acquisition sonores. 

Dans le cadre de rapplication du proc6de de I'invention, tel que decrit 
10 en r6f§rence aux figures 1 A et IB, le systeme comporte dans le module 124, une 
unique unite de determination d'une fonction de transformation conjointe de 
Tenveloppe spectrale et de la frequence fondamentale. 

Dans un tel mode de realisation, les modules 134 de separation et 138 
d'application de la fonction de transformation des frames non voisees, ne sont 
15 pas necessaires. 

Le module 136 permet done rapplication de la seule fonction de 
transformation conjointe a toutes les frames du signal vocal a convertir et delivre 
ies trames transformees au module 140 de synthese. 

De maniere generale, le systeme est adapte pour la mise en oeuvre de 
20 toutes les etapes des precedes decrits en reference aux figures 1 et 2. 

Dans tous les cas, le systeme peut egalement etre mis en oeuvre sur 
des bases de donnees determinees afin de former des bases de donnees de 
signaux convertis prets a etre utilises. 

Par exemple, Tanalyse est faite en temps differe et les parametres de 
25 I'analyse HNM sont memorises en vue d'une utilisation ulterieure lors des etapes 
40 ou 100 par le module 134. 

Enfin, en fonction de la complexite des signaux et de la qualite 
souhaitee, le precede de {'invention et le systeme correspondant peuvent etre 
mis en oeuvre en temps reel. 
30 Bien entendu d'autres modes de realisation que ceux decrits peuvent 

etre envisages. 

Notamment, les modeles HNM et GMM peuvent etre remplaces par 
d'autres techniques et modeles connus de I'homme de I'art. Par exemple, 
.['analyse est realis6e a I'aide de techniques dites LPC (Linear Predictive 
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Coding), de modeles sinusoTdaux ou MBE (Multi Band Excited), les parametres 
spectraux sont des parametres dits LSF (Line Spectrum Frequencies), ou encore 
des parametres lies auxformants ou a un signal glottique. En variante. le modeie 
GMM est remplace par une quantification vectorielle (Fuzzy VQ.). 
5 En variante, Testimateur mis en oeuvre lors de I'etape 30 est un critere 

de maximum a posteriori, dit "MAP" et correspondant a la realisation du calcul de 
Tesperance uniquement pour le modeie representant le mieux le couple de 
vecteurs source-cible. 

Dans une autre variante, la determination d'une fonction de 

10 transformation conjointe est realisee a I'aide d*une technique dite des moindres 
Carres au lieu de Testimation de la densite jolnte decrite. 

Dans cette variante, la determination d'une fonction de transformation 
comprend la modelisation de la densite. de probabilite des vecteurs source a 
Taide d'un modeie GMM puis la determination des parametres du modeie a Taide 

15 d'un algorithme EM. La modelisation prend ainsi en compte des segments de 
parole du locuteur source dont les correspondants prononces par le locuteur cible 
ne sont pas disponibles: 

La determination comprend ensuite la minimisation d'un critere des 
moindres carres entre parametres cible et source pour obtenir la fonction de 

20 transformation. II est a noter que I'estimateur de cette fonction s'exprime toujours 
de la meme maniere mais que les parametres sont estimes differemment et que 
des donnees supplementaires sont prises en compte. 
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REVENDICATiONS 

1. Procede de conversion d'un signal vocal (130) prononce par un 
locuteur source en un signal vocal convert! (150) dont les caracteristiques 
acoustiques ressemblent a celles d'un locuteur cible, comprenant : 
5 - la deternnination (1) d*au nnoins une fonction de transformation de 

caracteristiques acoustiques du locuteur source en caracteristiques acoustiques 
proches de celles du locuteur cible, a partir d'echantillons vocaux des locuteurs 

source et cible ; et 

- la transfornnation (2) de caracteristiques acoustiques du signal 
10 vocal a convertlr (130) du locuteur source, par Tapplication de ladite au moins 

une fonction de transformation, 

caracterise en ce que ladite determination (1) comprend la 
determination (1; 56) d'une fonction de transformation conjointe de 
caracteristiques relatives a i'enveloppe spectrale et de caracteristiques relatives a 
15 la frequence fondamentale du locuteur source et en ce que ladite transformation 
(2) comprend rapplication de ladite fonction de transformation conjointe. 

2. Procede selon la revendication 1, caracterise en ce que ladite 
determination (1 ; 56) d'une fonction de transformation conjointe comprend : 

- une etape (4X, 4Y) d'analyse des ecl^antillons vocaux des 
20 locuteurs source et cible regroupes en trames pour obtenir, pour chaque trame 

d'echantillons d'un locuteur, des informations relatives a I'enveloppe spectrale et 
a la frequence fondamentale ; 

- une etape (16X, 16Y; 62X, 62Y) de concatenation des 
informations relatives a Tenveloppe spectrale et a la frequence fondamentale 

25 pour chacuri des locuteurs source et cible ; 

- une etape (20 ; 70) de determination d'un modele representant 
des caracteristiques acoustiques communes des echantillons vocaux du locuteur 
source et du locuteur cible ; et 

- une etape (30 ; 80) de determination, a partir de ce modele et des 
30 echantillons vocaux, de ladite fonction de transformation conjointe. 

3. Procede selon la revendication 2, caracterise en ce que lesdites 
etapes d'analyse (4X,4Y) des echantillons vocaux des locuteurs source et cible 
sont adaptees pour delivrer lesdites informations relatives a Tenveloppe spectrale 

. sous la forme de coefficients cepstraux. 
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4. Procede selon la revendication 2 ou 3, caracterise en ce que 
lesdites etapes (4X. 4Y) d'analyse comprennent chacune la modelisation des 
echantillons vocaux selon una sonnme d'un signal harmonique et d'un signal de 
bruit qui comprend : 

5 " une sous-etape (8X. 8Y) d'estimation de la frequence 

fondannentale des echantillons vocaux ; 

- une sous-etape (10X, 10Y) d'analyse synchronlsee de chaque 
trame d'echantillons sur sa frequence fondamentale ; et 

- une sous-etape (12X, 12Y) d'estimation de parametres 
10 d*enveIoppe spectrale de chaque trame d'echantillons. 

5. Procede selon Tune quelconque des revendications 2 a 4, 
caracterise en ce que ladite etape (20 ; 70) de determination d'un modele 
correspond a la determination d'un modele de melange de densites de 
probabilites gaussiennes. 

15 6. Procede selon la revendication 5.. caracterise en ce que ladite 

etape de determination (20 ; 70) d'un modele comprend : 

- une sous-etape (22, 72) de determination d'un modele corres- 
pondant a un melange de densites de probabilites gaussiennes, et 

- une sous-etape (24, 74) d'estimation des parametres du melange 
20 de densites de probabilites gaussiennes a partir de I'estlmation du maximum de 

vraisemblance entre les caracteristiques acoustiques des echantillons des 
locuteurs source et cible et le modele. 

7. Procede selon I'une quelconque des revendications 2 a 6,. 
caracterise en ce que ladite determination (1 : 56) d'au moins une fonction de 
25 transformation, comporte en outre une etape (14X, 14Y ; 60X, 60Y) de 
normalisation de la frequence fondamentale des trames d'echantillons des 
locuteurs source et cible respectivement par rapport aux moyennes des 
frequences fondamentales des echantillons analyses des locuteurs source et 
cible. 

30 8. Procede selon I'une quelconque des revendications 2 a 7, 

caracterise en ce qu'il comporte une etape (18 ; 50) d'alignement tempore! des 
caracteristiques acoustiques du locuteur source avec les caracteristiques 
acoustiques du locuteur cible, cette etape (18 ; 50) etant realisee avant ladite . 
etape (20 ; 70) de determination d'un modele conjoint. 
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9. Precede selon Tune quelconque des revendications 1 a 8, 
caracterise en ce quMl comporte una etape. (54) de separation dans les 
echantillons vocaux du locuteur source et du locuteur cible, des trames a 
caractere voise et des trames a caractere non voise, ladite determination (56) 

5 d'une fonction de transformation conjointe des caracteristiques relatives a 
I'enveloppe spectrale et a la frequence fondamentale etant realisee uniquement a 
partir desdites trames voisees et le precede comportant une determination (58) 
d'une fonction de transformation des seules caracteristiques d'enveloppe 
spectrale uniquement a partir desdites trames non voisees. 

10 10. Precede selon Tune quelconque des revendications 1 a 8, 

caracterise en ce que ladite determination (1) d'au moins une fonction de 
transformation comprend uniquement ladite etape (1) de determination d*une 
fonction de transformation conjointe. 

11. Procede selon Tune quelconque des revendications 1 a 10, 
15 caracterise en ce que ladite determination (1 ; 56) d'une fonction de 

transformation conjointe est realisee a partir d'un estimateur de la realisation des 
caracteristiques acoustiques du locuteur cible sachant les caracteristiques 
acoustiques du locuteur source. 

12. Procede selon la revendication 11, caracterise en ce que ledit 
20 estimateur est forme de I'esperance conditionnelle de la realisation des 

caracteristiques acoustiques du locuteur cible sachant la realisation des 
caracteristiques acoustiques du locuteur source. 

13. Procede selon Tune quelconque des revendications 1 a 12, 
caracterise en ce que ladite transformation (2) de caracteristiques acoustiques du 

25 signal vocal a convertir (130), comporte : 

- une etape (36) d'analyse de ce signal vocal (130), regroupe en 
trames pour obtenir, pour chaque trame d'echantillons, des informations relatives 
a I'enveloppe spectrale et a la frequence fondamentale ; 

- une etape (38) de formatage des informations acoustiques 
30 relatives a Tenveloppe spectrale et a la frequence fondamentale du signal vocal a 

convertir ; et. 

- une etape (40 ; 102) de transformation des informations 
acoustiques formatees du signal vocal a convertir (130) a Taide de ladite fonction 

. de transformation conjointe. 
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14. Procede seion les revendications 9 et 13 prises ensemble, 
caracterise en ce qu'il connporte une etape (100) de separation, dans ledit signal 
vocal a convertir (130), des trames voisees et des trames non voisees, ladite 
etape de transformation comprenant : 

5 - une sous-etape (104) d'application de ladite fonction de 

transformation conjointe aux seules trames voisees dudit signal a convertir 
(130) ;et 

- une sous-etape (106) d'application de ladite fonction de 
transformation des seules caracteristiques d'enveloppe spectrale auxdites trames 

10 non voisees dudit signal a convertir (130). 

15. Procede seion les revendications 10 et 13 prises ensemble, 
caracterise en ce que ladite etape de transformation comprend Tapplication de 
ladite fonction de transformation conjointe aux caracteristiques acoustiques de 
toutes les trames dudit signal vocal a convertir (1 30). 

15 16. Procede seion Tune quelconque des revendications 1 a 15, 

caracterise en ce qu'il comporte en outre une 6tape (44 ; 110) de synthese 
permettant de former un signal vocal converti (150) a partir des dites informations 
acoustiques transformees. 

17. Systeme de conversion d'un signal vocal (130) prononce par un 

20 locuteur source en un signal vocal converti (150) dont les caracteristiques^ 
acoustiques ressemblent a celles d'un locuteur cible, comprenant : 

- des moyens (124) de determination d'au moins une fonction de 
transformation des caracteristiques acoustiques du locuteur source en 
caracteristiques acoustiques proches du locuteur cible, a partir d'echantillons 

25 vocaux prononces par les locuteurs source et cible : et 

- des moyens (136, 138) de transformation des caracteristiques 
acoustiques du signal vocal a convertir (130) du locuteur source par {'application 
de ladite au moins une fonction de transformation, 

caracterise en ce que iesdits moyens (124) de determination d'au 
30 moins une fonction de transformation, comprennent une unite (126) de 
determination d'une fonction de transformation conjointe de caracteristiques 
relatives a Tenveloppe spectrale et de caracteristiques relatives ^ la frequence 
fondamentale du locuteur source et en ce que Iesdits moyens de transformation 



wo 2005/106852 PCT/FR2005/000564 

27 

comportent des moyens (136) d'application de ladite fonction de transformation 
conjointe. 

18. Systeme selon la revendication 17, caracterise en ce qu'il 
comporte en outre : 

5 - des nnoyens (132) d'analyse du signal vocal a convertir (130), 

adaptes pour delivrer en sortie des informations relatives a Tenveloppe spectrale 
et a la frequence fondamentale du signal vocal a convertir (130) ; et 

- des moyens (140) de synthese permettant de former un signal 
vocal convert! a partir au moins desdites informations d'enveloppe spectrale et de 
1 0 frequence fondamentale transformees simultanement. 

19. Systeme selon Tune quelconque des revendications 17 et 18, 
caracterise en ce que lesdits moyens (124) de determination d*au moins une 
fonction de transformation de caracteristiques acoustiques comportent en outre 
une unite (128) de determination d'une fonction de transformation de Tenveloppe 

15 spectrale des trames non vois6es, ladite unite (126) de determination de la' 
fonction de transformation conjointe etant adaptee pour la determination de la 
fonction de transformation conjointe uniqiiement pour les trames voisees. 
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